继10月20日贾扬清发布大数据+AI一体化产品体系“阿里灵杰”后,阿里云计算平台产品与解决方案总经理高雪峰对企业数字化转型不同阶段的挑战、技术发展趋势、阿里云大数据+AI一体化平台五大能力升级,以及平台“深、通、透”三大特性和“4S” 标准进行了全盘分享,本文对其演讲内容做了精简编辑,希望能给在数智化转型过程中的企业带来更多借鉴与启发。企业数字化转型主要经历了两个阶段,从信息化阶段到数智化阶段。第一阶段,上世纪80,90年代,在西方已经发展了数十年的信息化革命开始在中国展露其影响。计算机技术、网络通信等核心技术的发展,使得信息化真正成为取代过去农业和工业两个时代的新时代。慢慢的,企业开始将其原本停留在纸上,以及专家脑中的过程沉淀到信息化系统中,“数字化转型”成为企业近几十年一直在谈论的话题。这个过程中,一批优秀的软件企业开始涌现,尤其是ERP软件,辅助各个企业进行数字化的改造。不过随着信息化的发展,企业积累和沉淀了非常多的数据,需要发挥数据的业务价值,大数据和AI技术被应用到很多的业务场景当中,因此催生了数据驱动业务创新的市场需求。第二阶段,越来越多的企业不满足简单数字化转型效果,而寻求数智化升级,数智融合平台驱动的场景化智能成为企业实现转型的必经之路。这个阶段,技术平台的能力开始凸显。它既能融合大数据和AI的技术能力,又能快速产生丰富的场景化智能,并应用到具体业务场景中,因而成为很多大型企业寻求变革的一种方式。不过,企业数智化升级面临了新的核心挑战,主要体现在五点:①企业数据越积累越多,但是对数据价值的挖掘速度并没有等速提升,单位数据价值密度越来越少;②企业业务智能化升级需求以及决策实时性需求与自身IT水平无法支撑的矛盾;③大数据和AI相关人才短缺;④业务智能化的投入产出比不高;⑤很难快速迭代,规模化进行业务智能化升级。与此同时,大数据技术发展的趋势也有了新的变化:①数据和算力的增长已经超过了业务和硬件的发展;②大数据和AI应用更多结合在了一起;③大数据平台技术支持多模态计算;④越来越多的软硬件开始共建发展 ;⑤大数据分析走向实时化和智能化;⑥基于隐私安全的数据共享变得重要;⑦以湖仓一体为基础的技术和业务成为新的演进趋势。也就是说,由客户遇到挑战而形成的市场需求,催生了技术的发展,而技术发展也不断地回馈市场和客户,优化市场需求。阿里云在大数据AI平台以及场景化智能打造方面已经一直积极探索,并且在面向技术发展趋势与客户需求结合方面做了五大核心能力升级。大部分企业经历了数十年的信息化后,沉淀了非常多的业务数据,企业想要构筑智能应用壁垒,就要想办法把这些数据使用起来。但是当企业构建智能应用的时候才发现,把这些数据使用起来是件很困难的事情:比如,不同业务部门数据在自己平台上形成了数据孤岛,不仅数据之间不互通,甚至数据命名规则、表现形式、限制条件等都不同;熟悉所有数据逻辑的专业人才匮乏;数据没有任何区分的存储……互联网公司对数据治理通常采用非常有效的“精益生产”方式:由数据开发人员自底向上建立模型,先将数据从数据源集成到数据平台中,然后再对数据进行加工处理、再存储,以及通过数据服务提供给上层应用,遇到问题之后随时对数据进行治理。这种自底而上方式可以非常快速地从点的角度进行大规模数据处理,快速响应业务的需求,同时通过中间的数据治理环节,对数据的存储,加工成本进行管控。大数据开发治理平台DataWorks就在这方面给企业提供了灵活的服务支撑。逐渐地,企业对统一数据标准、统一数据管理与治理又提出了新要求,自顶向下的模式开始被广泛需求与应用:从业务入手进行数仓的体系规划,梳理现有数据,定义标准,进行数仓建模,事先定义好各类业务应用的数据指标。值得一提的是,这种需求已经从金融行业蔓延到各行各业,甚至是习惯于自底向上、小步快跑的互联网企业。DataWorks采用双管齐下的方式满足企业在数据治理方面的全方位平台性需求,将传统的自顶向下建模体系能力与适应灵活“精益生产”自底向上构建数仓体系的能力相结合,提供了逆向建模的能力。与此同时,为了让企业非常容易地看到自己的数据到底是否健康,DataWorks 还推出了数据治理健康度五维评估模型,从研发规范、数据质量、数据安全、计算资源、存储资源五个层面评估企业的数据健康情况,更有效为企业的数据治理提供有力的数字依据。能力2:湖仓一体新升级2.0,真正做到一份数据,统一管控,多样分析最近,数据湖的形态被众多企业所使用,这种技术形态决定了企业很容易管理数据,并在其之上使用丰富的开源引擎做各种形态的计算。同时,在传统报表等BI应用催生下,企业已经构建的数据仓库形成了“数据孤岛”,数据间协同分析很难被执行,而且大部分企业没有将所有数据进行大集中处理的能力。在应用需求催生下,面向不同的仓和湖形态的数据存储和分析,企业有了非常强的数据互通需求。这也是“湖仓一体”的产生的背景。去年,阿里云“湖仓一体”打通云上数仓产品“MaxCompute”与数据湖产品“EMR”,经过一年的客户磨练与沉淀,“湖仓一体”有了2.0的新能力。从购买体验上,用户可以在线上分钟级打通云上Severless数据仓库( MaxCompute)和云原生数据湖(EMR+OSS),实现统一元数据、存储方面的安全互通。不仅更好的支持标准HDFS的数据访问,而且持续优化对OSS对象存储高速访问性能, 扩展支持Hudi、Delta Lake等开源数据湖格式。MaxCompute计算服务通过对智能缓存能力的升级,使访问EMR数据湖中的数据有10+倍性能的提升。
换句话说,湖仓一体2.0可以帮助企业消除数据孤岛,通过DataWorks将不同形态的数据统一管理与治理起来,并对特定应用加速分析。同时也可以帮助企业在新建数仓或者数据湖的同时,对既有系统进行充分利旧,在应用需求日趋迫切的时候,为企业规避了进行数据大集中的决策性风险。能力3: 云上数仓离在线一体化,实现分析性能提升
实时化和智能化成为云上数仓服务的发展方向。越来越多的企业无法忍受数据经过T+1的离线处理之后,再产生指导业务数据决策的漫长工作,而是希望能在不断产生实时数据的同时,与既有的离线数据一起产生实时洞察,从而立即产生业务所需的策略。
比如游戏玩家,在游戏体验过程中,按照玩家的即时需求给他推送对当前游戏体验有很大帮助的礼包,在满足玩家体验的同时,也会增加付费转化率;比如在证券交易实时数据产生时,通过离在线一体化的数据分析实现交易,满足监管机构的管理要求,更好的帮助机构控制风险。云上数仓离在线一体化方案,针对用户在分析领域各种时效性的需求,按需提供服务。离线大数据分析MaxCompute与实时数仓Hologres实现深度集成,对离线数据的实时化分析可以实现10倍性能的提升。在实时数仓的内部构件当中,可以通过实时计算Flink版的能力实现事件驱动的实时数仓的构建。向外可以对数据湖中的数据进行高效的分析,实现数据高速入仓,通过对标准开放的 SQL协议的支持,实现对19款主流BI工具的原生支持,帮助客户快速构建从数据集成到数据分析界面的数仓应用。数据规模越来越大,集群规模越来越大,一定会对大数据平台的运维能力产生很大的挑战,在海量数据可管,可控下,通过查询优化技术和文件存储优化技术将大规模集群的优势发挥到极致,并通过冷热冰存储的自动分层,为用户降低存储增长带来的成本的提升。智能数仓解决了大部分企业运维难的问题,真正做到企业大数据平台的智能驾驶。大数据和AI的融合,不仅是通常说的可以给企业IT运营降本增效,还可以直接带来业务的价值。下面举几个例子来看,阿里云怎么利用大数据和AI的力量为企业带来用户增长,业务运营效率的提升,业务运营成本的下降,抑或是改进风控的效果。首先是音视频媒体的端上超分。基于阿里已经开源多年的MNN端上推理框架,结合在算法推理上沉淀多年的优化经验,构建了端上超分的算法应用在帮助用户提升体验的同时,最大可能的节省了计算、存储、网络资源。
音视频媒体的观看体验和流畅度带来的用户留存以及CDN和GPU的计算、存储资源成本是任何一家互联网内容提供商在业务运营的时候都需要考虑的非常重要的两个指标。
经过实际客户的验证数据显示,我们可以帮助客户节省44%到75%的CDN内容分发成本,同时带来1%的观看时长的提升。这两个指标随着用户数的增加,给企业带来不断提升的业务运营效率。同时把很多云端的大规模推理计算分散到了端侧,大大节省了企业的运营成本。其次是大数据与AI的软硬件协同优化。PAI - Eflops 很好的解决了客户在深度学习训练或者推理加速中的痛点,通过软硬件协同优化,帮助客户把AI算力的投资转化为更加高效的生产力。通过多项专利保护的集群网络优化技术,大规模分布式模型训练中的内存管理技术,自研的vGPU技术,多年沉淀的大规模分布式模型训练和优化框架,以及端到端的模型管理,监控和运维技术,PAI-Eflops帮助很多客户在特定的场景下将软硬协同的优势发挥到极致,在金融量化模型,互联网智能搜索等AI密集型应用的场景下,我们可以通过将复杂神经网络的参数传递性能提升3到7倍,提升GPU算力的应用效率,进而实现整体性能近百倍的提升。
模型训练和推理的体验与云上PAI的体验完全一致,使得未来用户可以享受到便捷的云上和线下联邦建模等云边一体化的AI体验,节省自身IT更大规模的AI训练集群的投入。 大部分互联网企业最核心的问题就是保持用户增长,从广告营销,到新用户的LTV提升转化,再到流失用户的召回,这些都是业务管理上最为关注的关键性指标。通过大数据平台与AI建模能力的结合,我们可以通过智能算法的优势,帮助企业提升超过20%的广告投放 RoI,提升5%以上的短信用户召回的效率,精确的老客LTV评估可以助理精细化运营效率提升近30%。这些都直接为互联网的企业带来了业务上的明显收益。
能力5:数据安全与隐私计算,为数据协同与共享保驾护航数据协同成为技术发展的趋势,数据安全与隐私计算成为大数据平台必不可少的能力。阿里云在大数据计算和分析的引擎中预置了多种安全计算的方式以及集团业务沉淀的常用的联邦学习的算法,在端到端的数据链路上实现了数据访问的可管,可控,可追溯。同时将超大规模分布式云原生架构与内置的 MPC,TEE,FL等技术紧密结合,利用DataWorks强大的数据开发和治理平台的能力,将隐私计算的任务与所有其他的数据类任务进行联合编排和管理,实现完整的企业级数据应用。大数据与AI融合技术催生的场景化智能可以帮助客户带来业务价值,但是如何将这样的价值低成本的在企业进行复制,就需要发挥云原生以及平台层的力量。通过平台能力和场景化智能服务,企业可以方便改造业务工作流,在用户增长,运营成本降低,运营效率改进,风控安全等等界面最终实现业务价值的提升。而平台能力正是通过“深”,“通”,“透”三大特性来构建。“深”意味着在很多的场景下,需要通过软硬件协同的深度优化来追求极致的场景性能。对杂乱无章,无源可循的数据进行深度的治理。在AI计算资源紧张的情况下,通过对算法框架的深度优化,实现大模型训练和推理的降本与提效。“通”意味着大数据与AI分析联通在一起,大数据更多的为AI应用所服务,而AI更多的依赖大数据系统。用户自有的湖与仓可以很好的从存储,元数据和计算层面进行联通,真正做到一份数据,多样化计算。通过联邦学习和多方安全计算,实现数据确权情况下的安全互通。“透”意味着很多可以开箱即用的场景化的智能,可以根据客户的特定用户场景,从数据,行业模型,行业分析模版,典型算法框架等层面沉淀具备行业属性的场景化智能,从而实现从数据到业务的闭环。与此同时,我们通过 “4S” 的标准来定义大数据与AI平台。“4S”分别是:Scale,代表平台必须可以承载大数据,大应用和大模型;Speed,平台必须具备极致的运行,开发和运维的效率;Simplicity,平台对外的程序接口或者是服务接口一定是标准,简单,易懂,可以像函数般被调用;Scenario,最后一点也是最重要的一点,平台能力向场景而生。阿里云智能计算平台帮助客户打造的就是这样的大数据与AI平台,亦或是通过这样的平台为成千上万的云上客户提供便捷的云上服务。目前为止,围绕数据的全链路生命周期,经过多年阿里集团应用以及数十万云上客户打磨,阿里灵杰形成了一系列拳头产品,包括大数据+AI平台类产品(云原生大数据计算服务MaxCompute,开源大数据平台EMR,数据湖构建DLF,大数据开发治理平台DataWorks,实时数仓 Hologres,实时计算Flink版,机器学习平台 PAI,智能搜索OpenSearch等),以及丰富的生态产品(DDI,Elasticsearch,Cloudera,Confluent,Starburst等)。并且,阿里灵杰基于场景化需求,为用户提供更多的开箱即用的标准化智能服务接口和场景化智能解决方案,帮助企业提升业务价值。目前,平台已经深入到各行各业,为互联网、金融、制造、电信、教育等不同行业的客户带来平台催生的智能化变革。